查看原文
其他

数据集 | 三板上市公司年报2002-2023.12

大邓 大邓和他的Python
2024-09-10

一、数据集

1.1 概况

数据来源: 全国中小企业股份转让系统(https://www.neeq.com.cn/)

覆盖时间: 2002-04-02 ~ 2023-12-06

年报数量: 70838

累积挂牌数量: 13884

数据集体积: 131G

文件格式: pdf、txt、csv(csv是一个汇总文件,方便数据分析)
   
    
csv所含字段:
 - code
 - year
 - text
 
 
 500元,支持开票;加微信 372335839, 备注「姓名-学校-专业」



1.3  注意


1. 付费数据集,500元,支持开票;加微信 372335839, 备注「姓名-学校-专业」。

2. 数据是虚拟产品,一经售出,不再退还!

3. 请仔细阅读推文内容, 再加微信详谈购买事宜 




二、查看数据

三板年报.csv.zip 是一个汇总的 csv 文件,特别适合进行数据分析。解压后大概 15G, 如果你的电脑内存小于32G, 推荐阅读 | 如何处理远超电脑内存的csv文件

2.1 读取数据

import pandas as pd

df = pd.read_csv('三板年报.csv.zip', compression='zip')
df.head()


2.2 记录数

len(df)

Run

70838

2.3  累计挂牌企业数量

累计挂牌企业数量

df['code'].nunique()

Run

13884

2.4 日期范围

数据集覆盖的日期范围

df['date'] = pd.to_datetime(df['date'])

#年报发布日期
print(df['date'].min())
print(df['date'].max())

Run

2002-04-02
2023-12-06

2.5 年度记录数

for year, year_df in df.groupby(df['date'].dt.year):
    print(year, len(year_df))

Run

2002 5
2003 6
2004 19
2005 29
2006 33
2007 48
2008 59
2009 80
2010 90
2011 107
2012 139
2013 225
2014 732
2015 2336
2016 6874
2017 10811
2018 10948
2019 9258
2020 8400
2021 6859
2022 7019
2023 6761

import matplotlib.pyplot as plt
import matplotlib
import scienceplots
import platform
import pandas as pd
import matplotlib_inline
matplotlib_inline.backend_inline.set_matplotlib_formats('png''svg')
import jieba
import warnings
warnings.filterwarnings('ignore')
plt.style.use(['science''no-latex''cjk-sc-font'])
system = platform.system()  # 获取操作系统类型
if system == 'Windows':
    font = {'family''SimHei'}
elif system == 'Darwin':
    font = {'family''Arial Unicode MS'}
else:
    font = {'family''sans-serif'}
matplotlib.rc('font', **font)  # 设置全局字体


df.groupby(df['date'].dt.year).count()['year'].plot(kind='bar', figsize=(84), title='三板历年企业年报数')



三、相关代码

想用 python 对 csv、xlsx 进行分析, 要学会尽量用 pandas 写代码。以下是近期 pandas 的一些处理推文免费教程, 感兴趣的可以进去浏览浏览。



四、获取数据


1. 付费数据集,500元;加微信 372335839, 备注「姓名-学校-专业」。
2. 数据是虚拟产品,一经售出,不再退还!
3. 请仔细阅读推文内容, 再加微信详谈购买事宜

 



精选内容

LIST | 社科(经管)可用数据集列表
LIST | 文本分析代码列表
LIST | 社科(经管)文本挖掘文献列表
数据集  | 人民网政府留言板原始文本(2011-2023.12)
数据集  |  人民日报/经济日报/光明日报 等 7 家新闻数据集
可视化 | 人民日报语料反映七十年文化演变
数据集 | 2024年中国全国5级行政区划(省、市、县、镇、村)
数据集 | 3571万条专利申请数据集(1985-2022年)
数据集 |  专利转让数据集(1985-2021)
数据集 | 288w政府采购合同公告明细数据(2023.09)
代码 | 使用 3571w 专利申请数据集构造面板数据
代码 | 使用「新闻数据集」计算 「经济政策不确定性」指数
数据集 | 国省市三级gov工作报告文本
代码 | 使用「新闻数据」生成概念词频「面板数据」
代码 | 使用 3571w 专利申请数据集构造面板数据
代码 | 使用gov工作报告生成数字化词频「面板数据」
Polars库 | 最强 Pandas 平替来了
cpca库 | 中国省、市区划匹配库



继续滑动看下一个
大邓和他的Python
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存